A study of first-passage time minimization via Q-learning in heated gridworlds
نویسندگان
چکیده
Optimization of first-passage times is required in applications ranging from nanobots navigation to market trading. In such settings, one often encounters unevenly distributed noise levels across the environment. We extensively study how a learning agent fares 1- and 2- dimensional heated gridworlds with an uneven temperature distribution. The results show certain bias effects agents trained via simple tabular Q-learning, SARSA, Expected SARSA Double Q-learning. While high rate prevents exploration regions higher temperature, low enough increases presence regions. discovered peculiarities biases temporal-difference-based reinforcement methods should be taken into account real-world physical design.
منابع مشابه
a study of baudrillards ideas in brian moores fiction
پیدایش مرحله ی جدیدی از نظام سرمایه داری بعد از جنگ جهانی دوم همزمان است با ظهور عصر اطلاعات و رسانه جمعی. در چنین جامعه ای سیر آزادانه ی نشانه ها در فضای بی اساس مجازی بر سرعت فرسایش واقعیت می افزاید. به اعتقاد بودریار، فقدان واقعیت به واسطه ی شبیه سازی آن و تولید حاد واقعیت (hyperreality) پنهان خواهد ماند. این پژوهش بر آن است که جامعه فرانوین توصیف شده در سه رمان بریان مور را با توجه به نظر...
15 صفحه اولthe relationship between iranian efl learners beliefs about rote learning, their use of vocabulary learning strategies and their success in vocabulary learning: a think-aloud protocol study
the purpose of this study was to investigate iranian efl learners’ beliefs about the role of rote learning (rl) in vocabulary learning strategies; besides, the study examined if english proficiency would influence learners’ vocabulary learning strategy use. this study addresses the need for a clear understanding of the role of rl in efl vocabulary learning by looking at iranian efl learners’ ow...
15 صفحه اولEvaluating project’s completion time with Q-learning
Nowadays project management is a key component in introductory operations management. The educators and the researchers in these areas advocate representing a project as a network and applying the solution approaches for network models to them to assist project managers to monitor their completion. In this paper, we evaluated project’s completion time utilizing the Q-learning algorithm. So the ...
متن کاملEvaluating project’s completion time with Q-learning
Nowadays project management is a key component in introductory operations management. The educators and the researchers in these areas advocate representing a project as a network and applying the solution approaches for network models to them to assist project managers to monitor their completion. In this paper, we evaluated project’s completion time utilizing the Q-learning algorithm. So the ...
متن کاملgradual erasure of subjectivity: a study of samuel beckett’s trilogy in the light of postmodernism
ساموئل بکت بیشتر از هر نویسنده دیگری در نیم? دوم قرن بیستم با گفتارش زمان? ما را به آستان? از هم پاشیدگی کشانده است، آستانه ای که در آن مدرنیته با سرانجام گریزان اما غیرقابل اجتناب خود مواجه می شود. در این تحقیق روی مفهوم فردیت و محو آن در دوران پسامدرن تاکید شده و در طی آن سعی شده است که فردیت مدرن و پسامدرن در رمان های سه گانه بکت بررسی گردد. تحقیق حاضر یک بررسی کتابخانه ای و کیفی بر روی سه ر...
15 صفحه اولذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ژورنال
عنوان ژورنال: IEEE Access
سال: 2021
ISSN: ['2169-3536']
DOI: https://doi.org/10.1109/access.2021.3129709